FILTER MODE ACTIVE

#распознавание речи

Найдено записей: 12

#распознавание речи09.09.2025

Qwen3-ASR Flash: единая модель Alibaba для многоязычного и шумоустойчивого распознавания речи

'Qwen3-ASR Flash — единая модель Alibaba для автоматического распознавания речи на 11 языках, поддерживающая вставку контекста и показывающая WER ниже 8% в шумных и музыкальных условиях.'

#распознавание речи29.08.2025

OpenAI представила GPT-Realtime: единая речевая модель с поддержкой SIP и MCP

'OpenAI вывела Realtime API из беты с GPT-Realtime, единым аудиопайплайном, поддержкой SIP и MCP, улучшив производительность и возможности для бизнеса, но оставив проблемы с точностью и устойчивостью.'

#распознавание речи29.07.2025

Amazon представила AI-архитектуру, сокращающую время вывода на 30% за счет активации только релевантных нейронов

Исследователи Amazon создали AI-архитектуру, которая сокращает время вывода на 30%, активируя только нейроны, релевантные конкретной задаче, по аналогии с эффективностью человеческого мозга.

#распознавание речи17.07.2025

NVIDIA представляет Canary-Qwen-2.5B: ведущая гибридная модель ASR-LLM с непревзойденной точностью и скоростью

Модель Canary-Qwen-2.5B от NVIDIA устанавливает новый рекорд точности распознавания речи и обеспечивает высокую скорость обработки. Открытая и лицензированная для коммерческого использования, она объединяет транскрипцию и понимание языка в одном решении.

#распознавание речи17.07.2025

Mistral AI представляет Voxtral: лучшие открытые модели распознавания речи с продвинутым пониманием аудио

Mistral AI выпустила Voxtral — современные открытые модели распознавания речи, объединяющие транскрипцию и понимание языка с поддержкой длинного аудиоконтекста и нескольких языков.

#распознавание речи06.05.2025

LLaMA-Omni2: прорыв китайских исследователей в реальном времени с моделями речи на базе больших языковых моделей

Китайские исследователи представили LLaMA-Omni2 — модульную модель речи, обеспечивающую реальное время и минимальную задержку в голосовом взаимодействии с большими языковыми моделями.

#распознавание речи06.05.2025

NVIDIA выпустила Parakeet TDT 0.6B: сверхбыстрая и точная модель распознавания речи с открытым исходным кодом

NVIDIA представила Parakeet TDT 0.6B — открытую модель ASR, которая транскрибирует час аудио за одну секунду и достигает лучших показателей точности, устанавливая новый стандарт в индустрии.